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面向 旅游 在 线 评论 情感 词典 构建 方法 
严 仲 培 陆 文 星 0 束 束 。， 王 梢 有 
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摘 要 : 旅游 在 线 评 论 情感 分 析 的 基础 是 情感 词典 的 构建 。 在 领域 情感 词典 构建 过 程 中 ， et 
子 词 集 的 标准 ， 而 并 未 考虑 其 内 部 词语 的 关联 程度 ， 这 会 导致 种 子 词 集聚 类 效果 不 明显 ， 进 而 影响 情感 词语 归 类 精度 。 
因此 ， 基 于 词 向 量 模型 ， 提 出 一 种 情感 词典 种 子 词 集 筛选 方法 。 该 方法 将 情感 词语 以 向 量 形式 表征 并 计算 词 向 量 间距 
离 ， 形 成 种 子 词 集 的 筛选 标准 和 分 类 依据 ， 再 通过 类 别 判 断 形成 在 线 评论 的 情感 词典 。 最 后 ， 构 建 了 山岳 型 旅游 景区 
在 线 评 论 情 感 词 典 ， 并 通过 对 比 实验 验证 了 方法 的 有 效 性 ， 对 提高 情感 词语 归 类 精度 和 旅游 在 线 评论 情感 词典 的 构建 
起 到 了 积极 的 作用 。 
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Construction method of sentiment lexicon for online travel reviews 
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Abstract: The basis of emotional analysis for the online travel reviews is the construction of the sentiment lexicon. In the 


traditional process of constructing the field emotional dictionary, the word frequency is usually used as the criterion of screening 


the seed word set, instead of the association degrees of the internal words, which will lead to the effect of the seed word set 


的 =。 clustering not that obvious, thus affecting the emotional word classification accuracy. Therefore, this paper proposed a method 
2 - of seed word collection based on word vector, which expressed the emotional words in Vector form and calculate the distance 
between word vectors as a Selection criteria and classification basis of the seed word set. Finally, the emotional dictionary of the 
mountain scenic area was constructed, and the validity of the method is verified by a series of comparison experiments. This 
paper plays a positive role in improving the accuracy of emotional words and the construction of sentiment lexicon on tourism 
online travel reviews. 
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比例 外 。 但 由 于 消费 者 获取 信息 的 不 对 称 性 导致 了 较 大 的 环 
0 引言 不 确定 性 ， 使 其 对 旅游 结果 产生 感知 风险 ， 进 而 影响 了 消费 

旅游 在 线 评论 是 指 游 客 针对 某 一 旅游 景区 或 景点 ， 通 过 专 。 的 购买 决策 91。 因 此 ， 如 何 通过 游客 在 线 评论 信息 分 析 游客 情 
门 的 旅游 评论 网 站 (如 TripAdvisor、 曙 蜂窝 、 百 度 旅游 等 ) 网 。 感 ， 进 而 改进 自身 的 服务 水 平 以 吸引 更 多 旅游 者 ， 已 成 为 旅 
络 社区 (如 百度 贴吧 等 或 者 其 他 渠道 发 表 的 带 有 自身 情感 或 景区 管理 者 需要 考虑 的 重要 问题 之 一 。 
好 的 评论 性 文字 。 研 究 表 明 ， 旅 游 者 获取 旅游 信息 的 渠道 ， 除 旅游 在 线 评论 情感 分 析 的 基础 是 旅游 在 线 评论 情感 词典 。 
了 图 片 之 外 ， 最 重要 的 是 网 上 的 旅游 在 线 评论 信息 中。 随 着 互 。 ”在 情感 词典 的 构建 过 程 中 ， 国 外 研究 人 员 一 般 以 WordNet 为 基 
联网 的 不 断 发 展 ， 消 费 者 通过 网 络 购买 商品 及 服务 的 行为 不 断 。 础 ， 进 行 英文 情感 词典 的 构建 研究 外 。Baccianella 等 人 加 基于 
增加 ， 旅 游 已 作为 一 种 无 形 的 、 以 服务 为 性 质 的 产品 ， 逐 渐 被 “WordNet， 构 建 了 相关 领域 普遍 认可 的 SentiWordNet 情感 记 
列 入 电子 商务 的 范围 内 ， 并 在 网 络 产品 消费 中 占有 越 来 越 重 的 。 ”Turneyt9 提 出 并 改进 了 PMI 算法 ， 并 在 情感 分 类 过 程 中 取得 
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较 好 的 效 呈 


相关 学 者 也 针对 不 同 
桂 斌 等 人 0 提出 了 一 种 基于 微 博 表情 符号 的 微 博 情 感 词 
了 微 博 情感 词典 。 周 咏 梅 等 人 0 通过 优化 
情感 词典 。 郭 顺利 等 人 0 通过 改进 的 
如 书评 论 的 情感 词典 。 

向 旅游 在 线 评论 领域 的 情感 研究 很 少 ， 
F 论 情感 词典 的 构建 工作 几乎 为 空白 。 山 项 


建 方法 ， 构 和 
模型 ， 构 建 了 新 闻 评 
SO-PMI 方法 ， 构 建 了 


调查 发 


Araki 和 Yang 等 人 [8 


分 别 通过 改进 的 SO-PMI 
算法 ， 构 建 了 中 文 情感 词典 和 日 语 情感 词典 。 目 前 ， 国 内 研究 
人 员 主 要 基于 HowNet 词典 进行 中 文 情感 词典 的 构建 研究 。 例 
如 ， 柳 位 平等 人 四 以 HowNet 为 基础 ， 利 用 TF-IDF 特征 权 值 计 
算 方法 ， 构 建 了 中 文 基础 情感 词典 。 除 了 基础 情感 词典 ， 
领域 ， 构 建 了 相关 的 领域 情感 词典 。 


型 旅游 景 


排 


而 


国内 
例如 ， 
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词 癌 量 方 说 


组 成 旅游 在 线 评 i 
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严 仲 培 ， 等 : 面向 旅游 在 线 评论 情感 词典 构建 方法 


行 筛选 ， 最 终 提 高 了 情感 词语 归 类 的 精度 。 本 文 提出 的 基于 
的 旅游 在 线 评论 情感 词典 构建 流程 大 体 如 图 1 所 示 。 
携程 、 蚂 峰 窝 等 旅游 网 站 相关 在 线 评论 数据 ， 
情感 分 析 语 料 库 。 利 用 工具 进行 切 词 、 词 频 


统计 等 数据 清洗 操 


作 步 骤 后 ， 与 HowNet 情感 词典 、 情 感 词汇 


本 题库 等 一 系列 读 


组 成 的 情感 词典 集 进行 交集 操作 ， 利 用 词 


频 作为 标准 篇 选 得 到 旅游 在 线 评论 情感 词 集 。 随后， 本 文 利用 


情感 词汇 本 体 库 与 上 述 旅游 在 线 评论 情感 词 集 进行 交集 ， 结 合 


本 文 提 出 的 


情感 词 有 其 闻 
佐 神 工 * 


浑然 天 成 ”“ 钢 峨 "等 。 因 此 ， 其 他 领域 的 情感 丰 


以 有 效 的 应 ) 


于 山岳 型 景区 在 线 评论 情 


定 的 看 
究 对 象 ， 收 得 


对 旅游 景 


1 
1.1 


其 在 种 子 词 集 筛选 过 程 
未 考虑 其 内 部 词 


不 8 


感 词语 进 


经 典 


以 山岳 型 


F 论 不 同 于 其 他 的 领域 的 评论 ， 它 所 包含 扫 
kh 特 性， 有 些 词语 在 其 他 领域 很 少 使 用 ， 例 如 “ 鬼 


车 于 词 向 量 的 种 子 词 筛选 方法 得 到 旅游 在 线 评论 种 
子 词 集 。 最 后 ， 通 过 计算 情感 词 与 种 子 词 间 的 互信 息 进 行情 感 
词语 情感 类 别 判断 ， 得 到 旅游 在 线 评论 情感 词典 ， 并 以 山岳 型 
景区 为 例 验证 了 该 方法 的 有 效 性 。 


1.2 数据 来 源 及 处 理 
中 国 山 岳 旅游 联盟 是 由 国家 旅游 局 倡导 ， 国 家 旅游 局 国际 


究 价 值 和 意义 。 本 文 以 “中 国 山岳 旅游 联盟 ”为 3 
长 了 相关 景区 在 线 评论 数据 ， 提 
评论 的 情感 词典 构建 方法 ， 提 高 了 旅游 评论 情感 词语 归 


究 难 
感 分 析 研 究 ， 使 其 具有 


要 研 
出 了 一 种 旅游 在 线 
类 精 


基于 词 向 量 方法 的 旅游 评论 情感 词典 构建 
思路 概述 

的 专业 领域 情感 词典 构建 过 程 一 般 包 括 情感 分 类 、 语 
料 情感 词 匹配 、 种 子 词 集 筛选 、 情 感 词 语 归 类 四 个 大 步骤 。 但 
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交集 & 包 和 | 


旅游 在 线 评论 
情感 词 集 


图 1 


旬 


| 对 这 一 


感 词 情感 
别 判断 


旅游 在 线 评 
论 情 感 词典 


基于 词 向 量 方法 的 旅游 在 线 评论 情感 词典 构建 流程 


h， 通 常 仅 使 用 词 频 作为 第 选 标准 


区 为 例 自动 构建 了 其 旅游 在 线 评论 情感 词 
论 情感 分 析 研究 有 着 积极 的 意义 。 


E， 而 
语 的 关联 程度 ， 这 会 导致 种 子 词 集聚 类 效果 
明显 ， 进 而 影响 情感 词语 归 类 精度 。 


决 点 ， 本 文 提 出 了 一 种 基于 词 向 量 的 种 子 情感 词 
筛选 方法 。 指 出 在 筛选 种 子 情感 词 的 过 程 中 ， 以 向 量 形式 对 情 


通过 计算 词 向 量 之 间 的 距离 ， 对 种 子 词 集 


司 、 安 徽 4 


旅游 局 等 11 个 省 的 旅游 局 共同 倡导 ， 由 黄山 联合 


九 华 山 、 天 柱 山 等 23 家 景山 后 型 景区 共同 发 起 的 中 国 第 一 个 


山岳 型 旅游 联盟 。 联 盟 创 建 的 主体 思想 是 “平台 共 建 、 品 牌 共 
享 ”， 即 在 追求 包容 性 发 展 、 可 持续 发 展 的 同时 ， 
究 与 交流 ， 推 进 资 源 与 环境 保护 ， 不 断 彰显 我 国 山 


创 、 价 值 
深化 科学 研 
岳 历史 与 文化 。 

本 文 以 中 国 山岳 旅游 联盟 组 成 成 员 作 为 数据 收集 参照 ， 


[Ed 


过 图 2 对 比 了 各 大 旅游 网 站 近 三 年 内 百度 指数 搜索 数据 。 


到 2 ”旅游 网 站 百度 指数 对 比 图 


通过 图 2 可 以 看 出 ， 携 程 旅游 网 站 搜索 量 在 各 大 旅游 网 站 


中 处 于 领先 地 位 ， 其 次 是 去 哪儿 以 及 曙 蜂 寅 等 。 但 在 实际 操作 
过 程 中 发 现 ， 一 些 网 站 如 去 哪儿 等 ， 网 站 系统 默认 好 评 过 多 ， 


有 效 数 提 


剔除 


网 站 ， 


合 得 到 旅游 如 


示例 。 


过 少 ， 一些 网 站 如 途 牛 、 同 程 旅游 等 ， 景 点 评论 数 
据 量 较 少 或 没有 。 为 保证 实验 数据 的 有 效 性 ， 本 文 将 上 述 网 站 
最 终 选取 携程 、 曙 蜂窝 以 及 百度 旅游 三 者 作为 数据 来 源 
3 八 爪 鱼 数 据 收集 软件 采集 了 相关 旅游 评论 数据 ， 整 
F 论 情感 分 析 语 料 库 。 表 1 显示 了 部 分 数据 旨 


mt 


于 某 些 较 短 的 网 络 评论 如 “来 过 ”,， “很 好 ”等 ， 仪 包 合 一 


个 词语 ， 无 法 具体 表达 个 人 情感 因素 ， 为 防止 其 在 后 续 数 据 处 


时 


筛选 。 


法 筛选 出 情感 词 等 情况 ， 本 文 对 上 述 数据 集 进 行 了 
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表 1 


数据 集 示 例 


景点 名 称 


在 线 评论 


大 别 山 


大 别 山地 处 哪 耶 皖 交 界 处 ， 以 前 交通 不 是 很 方便 。 但 是 


合肥 到 武汉 的 高 铁通 车 以 后 ， 到 大 别 


方便 了 很 多 。 可 


以 坐 动车 到 金 寨 后 ， 


引 坐 大 巴 到 大 别 山 就 方便 很 多 了 。 


从 金 寨 车 站 到 大 别 ! 


的 景区 ， 约 2 个 多 小 时 的 车 程 就 能 


到 了 。 大 别 山 的 经 ! 


景点 是 天 半 寨 。 从 山下 的 入 口 一 路 


上 行 ， 沿 途 瀑布 、 溪 流 ， 景 色 非 常 优美 。 到 山顶 就 


到 了 


鄂 瑰 的 分 界线 了 。 
戏 。 从 这 里 再 往 前 ， 
以 从 湖北 的 罗 田 县 


在 这 里 可 以 玩 一 把 一 脚 跨 两 省 的 游 
就 是 湖北 省 的 地 界 了 。 所 以 ， 也 可 
Ei 元 ， 男 儿 


。 天 堂 寨 景区 门票 115 


还 要 买 游览 车 票 28 元 。 上 下 1 


游览 约 需 4 个 小 时 。 


峨眉 山 


10 月 7 


眉 ， 错 过 了 高 峰 ， 很 好 。 哦 眉山 


， 上册 


的 金 顶 是 
大 ， 如 果 要 看 


I 


三 
类 
站 
uy 


出 就 要 穿 很 厚 


的 ， 不 然 意 义 就 不 是 很 
的 衣服 ， 下 面 有 租 衣服 


出 和 云海 


i 的 猴子 都 是 当地 人 驯服 


了 的 ， 完 全 是 抢劫， 


就 买 猴 粮 ， 那 些 猴子 很 历 害 ， 最 好 是 在 另外 一 条 路 上 
看 ， 买 那个 竹竿 就 没什么 必要 了 ， 


的 ， 猴 区 是 真 的 没意思 去 ， 里 
思 。 


当地 人 教 猴子 仆 到 你 身上 ， 然 后 你 


因为 那些 猴子 根本 就 


不 怕 ， 干 万 不 要 去 摸 猴子 ， 有 了 时 它 要 咬 人 ， 本 文 当时 去 


的 金 顶 时 
猴子 很 可 


， 就 有 人 被 咬 了 ， 到 时 就 要 去 打针 了 ， 金 顶 的 
爱 ， 他 们 就 只 


只 是 要 吃 了 ， 只 要 你 不 去 摸 它 就 好 


黄山 


黄山 是 最 秀美 的 ， 建 议 大 家 干 万 不 要 跟 旅 行 团 去 ， 黄 山 


最 好 玩 两 天 。 在 山 


上 住 一 晚 ， 山 项 的 星空 要 上 


璀璨 的 多 。 黄 山 有 
景点 介绍 ， 当 然 ， 


比较 多 的 奇 山 异 石 ， 所 以 ， 
也 可 以 发 挥 你 的 想象 力 。 还 


天 一 定 要 在 早上 或 
于 缆车 落差 


也 张嘴 ， 打 哈欠 ， 


fo 


可 


午 看 朝霞 或 乡 阳 ， 建 议 坐 缆车 ， 注 
议 大 ， 所 以 在 乘坐 的 时 
或 咽 吐 沫 ， 以 保证 耳 


祝 大 家 旅行 愉快 。 


记 


K 
很 棒 ， 也 是 青岛 一 个 很 有 特色 的 景点 ， 


因为 青岛 的 


为 到 
别 的 ， 路 很 崎 蝶 ， 


蒂 

山 都 是 石头 山 ， 崂 山 风 景 可 以 和 云南 石林 一 拼 啦 ， 而 且 
游 山 是 纯 天 然 的 ， 崂 山 有 几 个 景点 ， 我 觉得 最 棒 的 就 是 
仰 口 ， 一 定 要 去 山顶 ， 无 论 你 是 华 
了 山顶 你 肯定 不 会 后 悔 的 ! 其 中 有 个 山洞 也 是 很 特 


[2 
me 

EE 
| 


FE 或 者 自己 爬 ， 因 


很 黑 ， 而 且 据 说 胖子 过 不 去 哦 一 


根据 吴 云 芳 等 人 的 研究 


个 字 左右 ， 


f 


在 此 删除 记 


F 论 长 度 小 于 30 


结果 ， 新 闻 评 论 句 长 通常 在 30~40 


一 口 


于 旅游 评论 跟 新 闻 评 论 都 隶属 于 评论 的 一 种 ， 故 
个 字符 以 及 仅 包含 图 片 评论 的 语 料 


数据 ， 最 终 得 到 10 万 条 旅游 评论 数据 作为 旅游 在 线 评 论 情感 


词典 构建 语 料 


对 DataSet 


库 DataSet。 接 下 来 ， 本 文 利用 Python 编程 软件 
进行 切 词 和 词 频 统计 操作 ， 综 合 考虑 语料库 规模 以 


及 其 他 非 情感 词语 因素 造成 得 影响 ， 本 文选 取 100 作为 词 频 得 


选 标 ; 


住 ， 去 除 词 频 


氏 于 此 标准 的 词语 ， 最 终 得 到 山 天 型 景区 旅 
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严 仲 培 ， 等 : 


游 在 线 评论 词 集 M， 共 2369 个 词语 。 


词 ， 现 有 的 词 
先 收集 了 大 连 
文 情感 极 性 词 
词 词典 共 四 个 现 有 的 情感 词 


里 工大 学 情感 词汇 本 体 库 ， 


由 于 旅游 在 线 评 论 中 包含 了 许多 专业 用 语 以 及 一 些 网 络 新 
昌都 不 能 完全 涵盖 所 有 的 情感 词 。 因 此 ， 本 文 首 


由 ， 知 网 HowNet 中 文 词 库 以 及 搜狗 网 络 流行 新 
， 整 合并 筛选 去 除 重复 的 情感 词 


面向 旅游 在 线 评论 情感 词典 构建 方法 


台湾 大 学 NTUSD 中 


语 ， 最 终 得 到 旅游 在 线 评 论 合并 情感 词 


N， 共 37835 个 词语 。 


将 M 和 NN 做 对 比 ， 取 两 者 交集 后 ， 以 词 频 为 依据 结合 


从 工大 


同义词 词 林 筛 选 去 除 部 分 重复 词语 ， 如 “费力 ”和 “吃力 ”等 ， 最 
终 形成 旅游 在 线 评 论 情 感 词 集 TravelWordSet， 共 包含 758 个 


情感 词 。 
1.3 ”基于 词 向 量 的 种 子 情感 词 选 择 方法 


旅游 在 线 评论 情感 种 子 词 指 的 是 ， 具 


强烈 情感 倾向 性 的 


代表 性 词语 。 本 文 拟 采用 郭 顺利 人 提出 的 改进 的 SO-PMI 算法 


[9 进行 词语 情感 倾向 性 的 判断 ， 所 以 


要 针对 上 一 步 生 成 的 


TravelWordSet 词 集 进行 进一步 筛选 操 作 ， 找 出 旅游 在 线 评 论 


种 子 词 集 。 


对 于 旅游 景区 的 在 线 评论 ， 不 同 的 评论 可 能 包含 着 


分 类 操作 。 到 目前 为 


对 于 情感 分 类 仍然 没有 


因此 需要 事先 对 其 进行 情感 
域 


个 统一 的 标准 。 一 般 


情况 下 ， 研 究 者 们 会 将 用 户 的 情感 分 为 4，8，10 乃至 20 类 不 
等 。 本 文 参照 徐 琳 宏 等 人 的 情感 词汇 本 体 库 07 构 建 方 法 ， 根 


据 已 有 的 资源 ， 将 | 


M1 性 
es， | 


情感 分 类 是 种 子 词 集 筛选 以 及 情感 词语 归 类 的 基础 。 对 于 


种 子 词 集 筛选 ， 一 般 的 方法 是 以 情感 词 
根据 词 


] 户 在 线 评论 情感 分 为 乐 ， 好 ， 怒 ， 衣 ， 悍 ， 


[本 体 WordSet 为 基准 ， 


频 的 大 小 第 选 种 子 情感 词 。 这 种 方法 虽然 简便 ， 但 并 没 


有 考虑 词语 之 间 的 相互 关系 ， 这 会 导致 种 子 词 集聚 类 效果 不 明 


显 ， 影 响 情感 词语 归 类 精度 ， 进 而 影响 文本 情感 的 判别 。 


十 


针对 这 一 现象 ， 本 文采 用 一 利 


Pe 


基于 词 向 量 的 情感 词 
司 集 第 选 方法 ， 指 出 将 情感 词 以 向 量 形式 表征 ， 


种 了 
通过 计算 词 向 


量 之 间 的 距离 对 种 子 情感 词 集 进行 筛选 ， 
内 聚 程度 ， 


则 在 提高 种 子 词 集 的 


mt 


进而 提高 情感 词语 归 类 精度 。Word2vec 是 


Mikolov 在 2013 年 提出 的 一 种 将 词语 表征 为 实数 值 向 量 的 高 效 


03]， 上 其 


下 主要 利用 深度 学 习 的 思想 
continuous-bag-of-words (CBOW ) 算法 
终 通过 机 器 学 习 
Word2vec 由 于 其 高 效 性 等 特点 ， 常 被 ) 
工作 ， 比 如 分 类 


， 通 过 skip-grams 或 


词语 嵌入 ， 并 最 


进行 


的 方法 探究 给 定 文档 中 词语 之 间 的 语义 关系 。 
来 做 很 多 NLP 相关 的 
中、 同义词 查找 、 语 义 分 析 09 等 等 。 


基于 上 述 优点 ， 本 文 首先 利用 此 工具 


对 情感 词语 进行 了 向 


Attractive Degree)， 其 计算 公式 如 下 : 


1 J 
EAD(wordi) = 一 > Dis(word;, wordin) 


n=1 


Na 


其 中 : wordi 表示 第 i 


量 形式 的 表示 ， 接 下 来 本 文 计算 了 各 个 词语 之 间 的 余弦 距离 ， 
借鉴 萤火虫 算法 相关 概念 ， 将 单个 情感 词语 和 其 
的 平均 距离 定义 为 该 情感 词语 的 情感 吸引 度 EAD(Emotional 


他 情感 词语 


(1) 


天 情感 的 第 j 个 情感 ，Dis(wordA,wordB) 
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代表 wordA 和 wordB 两 个 词 向 量 之 间 的 余弦 距离 。 为 了 对 情 。 语义 相似 度 判 别 方法 9 和 基于 词语 互信 息 的 SO-PMI 情感 词 倾 


感 类 别 中 的 情感 词语 进行 筛选 ， 以 便 为 后 续 步 又 提供 种 子 词语 ， 向 性 计算 方法 (9。 因 为 旅游 在 线 评论 包含 的 许多 网 络 新 词 如 
需要 定义 一 个 筛选 的 标准 距离 。 在 此 ， 本 文 使 用 如 下 式 (0) 对 “给 力 “ 坑 参 "等 ， 在 HowNet 中 无 法 找到 其 义 原 ， 无 法 计算 语 
此 距离 进行 计算 : 义 相似 度 ， 所 以 不 能 用 这 种 方法 判断 其 情感 类 别 。 本 文 根 据 郭 
ee 顺义 等 人 提出 的 改进 的 SOPMI 算法 ， 通 过 计算 词语 和 种 子 
SIaE4Di= 二 》 EAD(word,,) (2) ， 词 集 之 间 的 互信 息 来 判断 未 知 词语 的 情感 类 别 ， 实 验证 明了 该 

J 方法 的 有 效 性 。 
其 中 StaEAD; 表示 第 让 类 情感 的 标准 利 选 距离 。 通 过 以 上 公式 ， 记 旅游 在 线 评论 情感 词 集 TravelWordset 去 除 种 子 词 集 


分 别 计算 每 个 种 子 词 的 情感 吸引 度 EAD(wordi) 以 及 每 类 种 子 SeedWordSet 后 形成 的 需要 判断 的 旅游 在 线 评论 情感 词 集 为 
词 集 的 标准 筛 选 距离 StaEADi， 旬 选 剔除 其 中 EAD 值 小 于 该 TravelWordSetX 。 针 对 TravelWordSetX 里 面 的 每 一 个 词语 
类 StaEAD 值 的 词语 ， 最 终 得 到 旅游 在 线 评 论 情感 词 种 子 词 自 wordx ， 计 算 其 与 每 一 类 情感 的 种 子 词 集 SeedWordSeti 的 关 


| 


4 


pu 


SeedWordSet。 上 述 具 体 流程 如 图 3 所 示 。 联 度 SO_PMI(wordx， SeedWordSeti))， 如 式 (3) 所 示 。 
- - SO _ PMI (word, SeedWordsSet:) 乱 
ee] © 
BR A NES 其 中 ，N 代表 语料库 中 所 有 词语 的 总 次 数 ，hit 表示 词语 的 记 
| | 频数 ，wi 表示 单个 情感 种 子 词 集 SeedWordSeti 中 的 每 一 个 词 
| | 语 ，hit(wordx，wi 表 示 词 语 wordx 和 wi 在 同一 条 旅游 在 线 评 
| | 论 中 的 共 现 次 数 。d 表示 两 个 词语 之 间 的 共 现 距 离 ，Mi 表示 单 
| 个 种 子 词 集中 情感 词 的 个 数 。 最 终 ， 通 过 对 比 每 个 词语 的 相对 
| | 于 种 子 词 集 的 SO_PMI 大 小 ， 将 TravelWordSetX 里 面 的 词语 
| Cc 到 进行 情感 分 类 ， 整 理 后 得 到 旅游 在 线 评论 情感 记 
| I 
2 下 2 ”实验 分 析 
为 了 验证 基于 词 向 量 的 旅游 在 线 评论 情感 词典 构建 方法 的 
有 效 性 进 ， 本 文 设计 了 四 组 对 比 实验 ， 分 别 对 该 方法 运用 于 旅 
_ 游 评论 情感 词语 情感 类 别 判 定 的 适用 性 和 准确 性 进行 了 对 比 评 
图 3 ”基于 词 向 量 方法 的 单个 种 子 词 集 往 选 过 程 ss 
一 为 了 方便 观察 ， 本 文 对 上 述 方法 进行 了 算法 形式 的 描述 : 先 ， 根 据 网 络 上 获取 的 中 国 山岳 旅游 联盟 旅游 在 线 评论 
© 输入 : 旅游 在 线 评论 情感 词 集 TravelWordSet， 情 感 词汇 数据 ， 利 用 本 文 提 出 的 基于 词 向 量 的 情感 词典 构建 方法 得 到 相 
本 体 词典 WordSet。 应 的 种 子 词 集 并 记 其 为 SeedWordSet1， 共 包含 162 个 情感 词 ， 
输出 : 旅游 在 线 评论 情感 词 种 子 词 集 SeedWordSet。 如 表 2 所 示 。 
a) 对 于 TravelWordSet 内 每 一 个 词语 wi， 如 果 wi 属于 接 下 来 ， 本 文 仅 利 用 词 频 作为 依据 对 种 子 词 集 进行 人 工 判 


WordSet， 则 将 (wi，ei) 加 入 到 临时 情感 词典 TSD 内 。 其 中 别 第 选 ， 并 记 此 方法 产生 的 种 子 词 集 为 SeedWordSet2， 共 有 
ei 代表 每 个 情感 词 在 WordSet 中 对 应 的 情感 分 类 ， 具 体 包括 乐 ， 158 个 情感 词 ， 如 表 3 所 示 。 
好 ， 怒 ， 哀 ， 惧 ， 恶 ， 惊 七 大 类 别 。 表 2 和 3 对 比 可 以 看 出 ， 本 文 提出 的 基于 词 向 量 方法 的 

b) 对 于 上 步骤 得 到 的 TSD， 根 据 每 个 wi 的 ei， 将 所 有 情感 ” 种子 词 筛选 方法 与 仅 利用 词 频 方 法 筛选 得 到 的 种 子 词 集 有 所 不 
词语 分 为 七 大 情感 词 集 ， 并 分 别 记 为 OriWordSeti( 1<i <7)。 同 。 如 ， 情 感 类 别 为 “好 ”里 面 的 情感 原始 种 子 词 “不 错 ” 一 词 ， 


0c) 对 于 每 一 个 OriWordSeti， 分 别 计算 其 中 每 个 词 的 EAD， ”通过 词 向 量 方法 计算 出 其 与 原始 词 集 内 部 词语 间 的 平均 关联 度 
通过 计算 StaEAD 对 情感 词语 进行 筛选 ， 最 终 得 到 每 个 情感 ” 为 0.264， 远 远 小 于 本 文 进行 情感 种 子 词 筛选 的 标准 StaEAD 计 

的 种 子 词 集 SeedWordSeti ( 1<i <7)。 算出 来 的 值 0.53， 说 明 其 与 种 子 词 集 内 部 的 词语 关联 性 不 大 ， 

6) 合并 所 有 的 种 子 词 集 ， 得 到 旅游 在 线 评论 种 子 词 集 这 将 导致 后 续 情 感 词类 别 判 断 过 程 中 SO-PMI 值 计 算 较 小 ， 影 
SeedWordSet。 响 情 感 词语 判别 的 精度 ， 故 对 其 进行 剔除 操作 。 

算法 输出 并 结束 。 利用 2.2 节 中 的 旅游 在 线 评论 情感 词 集 TravelWordSet 去 
1.4 旅游 情感 词汇 情感 类 别 判断 除 上 述 两 个 种 子 词 集中 出 现 的 词语 ， 可 得 测试 词 集 

对 于 词语 情感 类 别 判断 方法 ， 主 要 有 基于 知 网 HowNet 的 。” ”TestWordSet， 总 共 534 个 情感 词 。 
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表 2 旅游 在 线 评论 种 子 词 全 对 于 测试 词 集 ， 首 先 采 用 人 工 判别 的 方法 ， 选 取 五 位 参与 


7 


情感 类 别 情感 种 子 词 人 员 ， 分 别 对 每 个 情感 词 进行 人 工 判别 情感 分 类 ， 最 终 通 过 统 


慨 意 ,心旷神怡 ,放松 ,更 说 ,快乐 ,幸福 , 饮 然 开朗 ,尽情 ,高 兴 ， 计 五 个 人 的 判别 结果 ， 对 比 讨论 得 出 人 工 判 别 结果 作为 情感 词 
乐 02 个 ) 外 移 nt ee 情感 倾向 标准 值 。 接 下 来 ， 采 用 实验 组 2 和 4 分 别 对 
WO A SeedWordSetl 和 SeedWordSet2 使 用 2.4 节 提出 的 改进 的 SO- 


悠然 自得 


悠 
鬼斧神工 ,雄伟 ,优美 ,美不胜收 ,奇观 ,名 不 虚 传 ,山清水秀 ， PMI 方法 对 TestWordSet 中 词语 情感 倾向 性 进行 判别 。 为 了 验 
壮丽 ,丰富 ,迷人 ,完美 ,天 下 第 一 ,郁郁 葡萄, 族 峨 ,流连 忘 返 ， 证 2.4 节 方 法 的 适用 性 ， 采 用 实验 组 1 和 3 分 别 对 


好 (45 个 ) 高 大 ,风景 如 画 , 插 拔 ,赞叹 ,美妙 ,惟妙惟肖 ,闻名 ,神圣 名 副 。 SeedWordSetl 和 SeedWordSet2 使 用 原版 的 SO-PMI 方法 进行 


甘 自 色 留恋 oe a ee a 
词语 人 向 性 判别 作为 对 比 实验 ， 最 终 得 出 的 结果 如 下 表 4 所 示 。 
玉 凯 奸 , 冯 伏 展 耐 ， 
涯 然 天 成 早已 悦目 神往 如 痪 如 酬 波 光孝 狼 情 不 自 然 ” 。 为 了 方便 观察 ， 本 文 利用 软件 对 算法 判别 结果 进行 了 表示 ， 如 


i 


怒 (3 个 ) 过 分 ,爆发 ,失落 图 4 所 示 。 


表 4 对 比 实验 结果 


失望 ,后 悔 ,无 奈 ,一 场 空 ,绝望 不幸, 悲剧 ,无 语 , 孤 独 
伤心 当 


遗憾 ， 
哀 (20 个 ) 冷清 ， 
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关中 不 足 ,孤单 ,荒凉 ,破败 , 卡 寞 ,大 失 所 望 ， 
萧条 倒 替 情感 分 类 乐 好 3 哀 惧 恶 惊 总 正确 率 /% 
惊险 ,害怕 ,悬崖 峭壁 ,吓人 , 臣 怖 ,困难 ,可 怕 , 小 心 恤 辟 ,漆黑 ， 人 工 判别 组 入 143 28 68 56 126 45 
惧 (17 个 ) “体力 不 支 , 咪 惧 ,艰险 , 心 惊 胆 战 , 惊 臣 ,望而却步 , 胆 导 , 望 而 实验 组 1 64 124 34 48 62 128 74 
74.5 
生 民 实验 组 1 正确 判别 。 56 107 16 34 42 109 34 
拥挤 ,没意思 ,浪费 ,无 聊 ,麻烦 ,忽悠 ,不 怎么 样 ,勉强 , 骗 人 ,出 
演 .难受 , 难 吃 , 怀 疑 嘲 杂 , 单 调 , 生 气 , 精 粒 , 乾 公 ,恶心 压抑 ， WE 
恶 (40 个 ) 浮躁 ,人 头 攒 动 ,恨不得 , 吵 闸 ,恶劣 , 灰 蒙 蒙 ,喧哗 , 狼 狐 , 邵 视 ， 。 和 2EW 和 NG 5 BB 9 
枯燥 ,扫兴 ,差劲 , 境 负 ,莫名 其 妙 ,折磨 ,未 必 , 名 不 副 实 , 吃 不 实验 组 3 59 136 26 53 53 143 64 
i i 68.7 
消 ,次 骗 ,可 亚 实验 组 3 正确 判别 。 48 103 14 28 40 103 31 
惊 (15 个 奇特 ,神秘 ,世外桃源 ,惊叹 ,奇妙 ,叹为观止 ,奇迹 ,罕见 ,惊奇 ， 
系 (15 个 ) 奇异 ,不 可 思议 ,惊人 ,震撼 人 心 , 意 想不到 ,千奇百怪 实验 组 4 68 131 38 55 64 126 52 
实验 组 4 正确 判别 。 58 112 14 42 45 109 36 
表 3 仅 依据 词 频 筛选 山岳 型 景区 在 线 评 论 种 子 词 集 
情感 类 别 情感 种 子 记 , 
自然 ,舒服 ,享受 ,宁静 , 异 意 ,心旷神怡 ,天 党 ,豁然 开朗 , 曲 径 加 
乐 (19 个 ) 通 幽 , 神 清 气 爽 ,恬静 ,诗情画意 ,水 天 一 色 , 赏 心 悦 目 ,不 亦 乐 100 口 人 工 判别 
80 + 回 词 向 量 筛 选 
sp. 小 、 is 看 外 4 旦 NA iT _ 
乎 ,沁人心脾 ,悠然 自得 ,兴致 勃 艺 , 风 和 日 丽 i 人 这 
不 错 ,值得 ,喜欢 ,漂亮 ,壮观 ,美丽 ,著名 ,仙境 ,圣地 ,安静 ,天 | 全 上 | 用 
然 , 郁 丽 , 鬼 什 神 工 ,雄伟 ,气势 ,美不胜收 ,奇观 ,名 不 虚 传 , 山 0 乐 好 怒 京 惧 可 术 
i 清水 秀 ,壮丽 ,迷人 ,天 下 第 一 ,郁郁 效 获 , 几 峨 ,流连 忘 返 , 青 图 4 ”算法 判别 结果 对 比 图 
山 绿 水 ,高 大 ,屹立 ,风景 如 画 , 赞 叹 ,惟妙惟肖 ,胜地 ,名 副 其 
实 , 金 碧 辉 煌 .古色古香 ,气势 磅 确 , 巷 以. 奇 秀 .陶醉 , 湖 光 山 实验 结果 表明 ， 本 文采 用 的 改进 的 SO-PMI 方法 总 体 上 较 
色 瑰宝 ,大 好 河山 ,沉醉 ,慕名 ,喜爱 原版 的 SO-PMI 算法 正确 率 高 ， 故 改进 的 SO-PMI 算法 可 以 利 
怒 G 个 ) 过 分 ,爆发 ,失落 用 于 旅游 在 线 评论 情感 词 情感 类 别 判 断 过 程 中 。 另 一 方面 从 结 
可 惜 遗 优 失望 后 怖 无 厅 艰 闻 痛苦 怀念 一 场 汪 绝望 不 果 可 以 看 出 ， 种 子 词 的 数量 对 情感 词类 别 判断 仍 存在 一 定 的 影 
Po 幸 ,悲剧 ,无 语 ,冷清 ,孤零零 ,伤心 ,美中不足 ,破碎 ,孤单 ,荒凉 响 ， 如 “ 怒 ” 的 种 子 词 较 少 ， 故 其 准确 率 ， 召 回 率 等 相对 值 都 较 
百 , 冷 | 力 心 , 夫 和正 ， FA 二 ,元 1 
是 拒 小 心 惊险 害怕 县 岸 博 辟 险要 下 贞 小 心 更 温 漆 电 低 ， 影 响 了 总 体 的 均值 。 另 外 ， 一 些 词语 如 “精神 等， 可 以 作 


惧 (17 个 J 作证 、 突 能 会 影响 总 体 的 判断 精度 。 
门 Pe 为 名 词 也 可 以 作为 形容 词 ， 也 可 能 会 影响 总 体 的 判断 精度 
接 下 来 ， 为 了 评估 本 文 提出 的 基于 词 向 量 的 种 子 词 集 筛选 


不 好 ,担心 ,逃票 ,严重 ,拥挤 ,没意思 ,吃力 ,费劲 ,好 不 容易 , 疲 
方法 的 算法 性 能 ， 本 文采 用 了 准确 率 (P 值 ) ， 召 回 率 (CR 值 ) 


备 , 浪 费 ,无 聊 ,麻烦 ,忽悠 ,要 了 ,不 怎么 样 ,不 及 ,缺点 ,不 过 如 的 
Lb F 划 量 指 标 ， 关 := 4 
恶 (40 个 ) ”此 ,勉强 , 骗 人 ,勉强 , 吐 闵 , 骨 演 ,污染 , 难 吃 , 哺 杂 ,单调 , 粮 粒 ， 十 i 
$ 所 示 。 
离谱 问 热 人头攒动 恨不得 , 岂 有 此 理 ,不 合理 扫兴 ,差劲 如 人 


负 , 莫 名 其 妙 ,折磨 由 表 4 可 以 看 出 ， 利 用 词 向 量 筛选 后 的 SeedWordSetl 进 
从 ,天 了 呈 六 DT 


行情 感 词 情 感 判别 准确 率 平 均值 为 0.79， 召 回 率 平均 值 为 0.79， 
神奇 ,奇特 ,神秘 ,世外桃源 ,惊叹 ,奇妙 ,叹为观止 ,奇迹 , 军 见 ， ee ba { | 
惊 (15 个 ) F 值 平均 值 为 0.79， 均 高 于 仅 利用 词 频 筛 选 出 的 SeedWordSet2 。 


惊奇 ,不 可 思议 ,震撼 人 心 , 意 想不到 ,从 天 而 降 ,千奇百怪 1 ee 
此 可 得 ， 本 文 提出 的 利用 词 向 量 方法 的 旅游 在 线 评论 情感 词 
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国 
国 


chinaXiIv 


录用 稿 


hn 


种 子 词 筛选 方法 对 于 旅游 情感 词 
可 利用 性 。 


构建 具有 较 高 的 准确 性 和 


表 5 基于 词 向 量 的 种 子 词 集 簿 选 算法 评估 


情感 分 类 乐 好 罗京 人 惧 恶 人 惊 平均 


SeedWordSetl P 


改 


PMI 方法 下 
SeedWordSet2 P 


改 


PMI 方 法 下 


0.88 0.87 0.46 0.46 0.73 


0.84 0.93 0.48 0.84 0.92 


进 的 SO- R 


0.86 0.90 0.47 0.78 0.89 


0.81 0.78 0.50 0.66 0.80 


进 的 SO- R 


0.85 0.85 0.37 0.76 0.70 


0.83 0.82 0.42 0.71 0.75 


3 


方法 ， 指 出 在 旅游 在 线 评 论 情感 词 


结束 语 
本 文 提出 了 一 种 姑 


于 词 向 量 的 旅游 在 线 评论 情感 记 
构建 种 子 词 筛选 过 程 


Word2Vec 工具 将 情感 词 表 示 成 为 向 量 形式 ， 并 通 


司 的 距离 对 情感 词 


通 
种 子 词 集 进行 第 选 ， 最 终 通过 对 情感 记 


情感 类 别 进行 判断 ， 得 到 旅游 在 线 评论 情感 词典 。 并 以 山岳 型 
景区 为 例 ， 
的 在 线 评 论 情感 分 析 方 法 
词典 的 构建 提供 


验证 了 该 方法 的 有 效 性 。 本 文中 基本 区 
有 一 定 的 普 适 性 ， 可 为 其 他 领域 情 

定 的 参考 价值 。 

本 文 研究 中 虽 取 得 一 定 阶段 性 成 果 ， 但 仍 存在 部 分 不 足 : 


也 


如 语 料 数量 仍然 不 够 庞大 ， 造 成 最 终 一 类 情感 种 子 词 集 较 少 ， 


影响 了 判别 的 精度 。 拟 在 下 一 步 研 究 中 做 到 以 下 改进 计划 : 从 

其 他 旅游 评论 网 站 以 及 外 网 仆 取 相关 评论 数据 ， 扩 大 研究 语 料 

库 并 将 方法 向 其 他 非 山 岳 型 旅游 景区 进行 推广 ， 提 高 该 旅游 景 

x 在 线 评论 情感 词典 构建 方法 的 普 适 性 。 
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